通常,用于训练排名模型的数据受到标签噪声。例如,在Web搜索中,由于ClickStream数据创建的标签是嘈杂的,这是因为诸如SERP上的项目描述中的信息不足,用户查询重新进行的,以及不稳定的或意外的用户行为。在实践中,很难处理标签噪声而不对标签生成过程做出强烈的假设。结果,如果不考虑标签噪声,从业人员通常会直接在此嘈杂的数据上训练他们的学习到秩(LTR)模型。令人惊讶的是,我们经常看到以这种方式训练的LTR模型的出色表现。在这项工作中,我们描述了一类耐噪声的LTR损失,即使在类条件标签噪声的背景下,经验风险最小化也是一致的程序。我们还开发了常用损失函数的耐噪声类似物。实验结果进一步支持了我们理论发现的实际意义。
translated by 谷歌翻译
Recent work has demonstrated that natural language processing techniques can support consumer protection by automatically detecting unfair clauses in the Terms of Service (ToS) Agreement. This work demonstrates that transformer-based ToS analysis systems are vulnerable to adversarial attacks. We conduct experiments attacking an unfair-clause detector with universal adversarial triggers. Experiments show that a minor perturbation of the text can considerably reduce the detection performance. Moreover, to measure the detectability of the triggers, we conduct a detailed human evaluation study by collecting both answer accuracy and response time from the participants. The results show that the naturalness of the triggers remains key to tricking readers.
translated by 谷歌翻译
Angluin的L*算法使用会员资格和等价查询了解了常规语言的最低(完整)确定性有限自动机(DFA)。它的概率近似正确(PAC)版本用足够大的随机会员查询替换等效查询,以使答案获得高级信心。因此,它可以应用于任何类型的(也是非规范)设备,可以将其视为合成自动机的算法,该算法根据观测值抽象该设备的行为。在这里,我们对Angluin的PAC学习算法对通过引入一些噪音从DFA获得的设备感兴趣。更确切地说,我们研究盎格鲁因算法是否会降低噪声并产生与原始设备更接近原始设备的DFA。我们提出了几种介绍噪声的方法:(1)嘈杂的设备将单词的分类W.R.T.倒置。具有很小概率的DFA,(2)嘈杂的设备在询问其分类W.R.T.之前用小概率修改了单词的字母。 DFA和(3)嘈杂的设备结合了W.R.T.单词的分类。 DFA及其分类W.R.T.柜台自动机。我们的实验是在数百个DFA上进行的。直言不讳地表明,我们的主要贡献表明:(1)每当随机过程产生嘈杂的设备时,盎格鲁因算法的行为都很好,(2)但使用结构化的噪声却很差,并且(3)几乎肯定是随机性的产量具有非竞争性语言的系统。
translated by 谷歌翻译
多词表达式(MWE)是一系列单词,共同提出的含义不是从其单个单词中得出的。处理MWE的任务在许多自然语言处理(NLP)应用中至关重要,包括机器翻译和术语提取。因此,在不同领域中检测MWE是一个重要的研究主题。在本文中,我们探索了最新的神经变压器,以检测花和植物名称中的MWES。我们在由植物和花朵百科全书创建的数据集上评估了不同的变压器模型。我们从经验上表明,Transformer模型模型优于基于长期记忆(LSTM)的先前神经模型。
translated by 谷歌翻译
在本文中,我们通过使窗口长度成为可通过梯度下降来优化的连续参数,而不是经验调谐的整数值为值的超参数来重新审视频谱图的使用。此时,该贡献主要是理论上的,但是将修改后的STFT插入任何现有的神经网络都很简单。在本地箱中心固定并且独立于窗口长度参数的情况下,我们首先定义了STFT的可区分版本。然后,我们讨论窗口长度影响垃圾箱的位置和数量的更困难的情况。我们说明了该新工具在估计和分类问题上的好处,这表明它不仅对神经网络也可能引起任何基于STFT的信号处理算法感兴趣。
translated by 谷歌翻译
卷积神经网络(CNN)是理解庞大图像数据集的好解决方案。随着配备电池电动汽车的数量增加在全球范围内蓬勃发展,已经进行了很多研究,了解了哪种电荷电力汽车驾驶员会选择为车辆充电以无需任何预防就能到达目的地。我们实施了深度学习方法来分析表格数据集,以了解其充电状态以及他们会选择哪些充电水平。此外,我们还为表格数据集算法实施了图像生成器,以利用表格数据集作为图像数据集来训练卷积神经网络。此外,我们集成了其他CNN体系结构,例如ExcilityNet,以证明CNN是从表格数据集中转换的图像中读取信息的出色学习者,并能够预测配备电池配备电池电动汽车的充电水平。我们还评估了几种优化方法,以提高模型的学习率,并检查了改进模型体系结构的进一步分析。
translated by 谷歌翻译
预先训练的上下文化文本表示模型学习自然语言的有效表示,以使IT机器可以理解。在注意机制的突破之后,已经提出了新一代预磨模的模型,以便自变压器引入以来实现了良好的性能。来自变压器(BERT)的双向编码器表示已成为语言理解的最先进的模型。尽管取得了成功,但大多数可用的型号已经在印度欧洲语言中培训,但是对代表性的语言和方言的类似研究仍然稀疏。在本文中,我们调查了培训基于单语言变换器的语言模型的可行性,以获得代表语言的特定重点是突尼斯方言。我们评估了我们的语言模型对情感分析任务,方言识别任务和阅读理解问答任务。我们表明使用嘈杂的Web爬网数据而不是结构化数据(维基百科,文章等)更方便这些非标准化语言。此外,结果表明,相对小的Web爬网数据集导致与使用较大数据集获得的那些表现相同的性能。最后,我们在所有三个下游任务中达到或改善了最先进的Tunbert模型。我们释放出Tunbert净化模型和用于微调的数据集。
translated by 谷歌翻译